2족 보행 - 훌륭한 개발자 블로그

강화 학습에 의한 2족 보행의 획득 Part2<기존의 구현으로 학습>

이번에는 그 환경에서 에서 구현된 강화 학습 기법 PPO를 이용하여 2족 보행을 학습해 보겠습니다. 은 2017년 OPEN AI에서 발표된 강화 학습 기법입니다. 단지 방안의 KL 다이버전스의 비교를 실시하기 위한 실장이 복잡해진다는 문제점이 있었기 때문에, PPO에서는 대신 방책의 전후의 비율이 일정치 이상이면 규정치로 클리핑함으로써 실장을 간략화해 있습니다. 실장이 끝난 모델을 사용하는 ...

강화 학습2족 보행